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Beschreibung 

Verfahren und Anordnung zur £rmi1:t:lung elner Folge von Aktio- 
nen fiir ein Sys'bem, welches Zustande aufweist^ wobei ein Zu- 
5 standsiibergang zwlschen zwei Zus'banden aufgrund elner Aktilon 
erfolg'b 

Die Erfindung betrifft ein Verfahren sowie eine Anordnung zur 
Ermittlung einer Folge von Aktionen fur ein System, welches 
10 Zustande aufweist, wobei ein Zustandsubergang zwlschen zwei 
Zustanden aufgrund einer Aktion erfolgt. 

Ein solches Verfahren und eine solche Anordnung sind aus [1] 
bekannt . 

In [1] ist als Beispiel fur ein solches System, welches Zu- 
stande aufweist, ein Finanzmarkt beschrieben. 



Das System wird als ein Markov-Entscheidungsproblem beschrie- 
20 ben (Markov-Decision-Problem, MDP) . Ein System, welches als 
Markov-Entscheidungsproblem beschrieben werden kann, ist in 
seiner Struktur in Fig. 2 dargestellt. 

Zu einem Zeitpunkt t befindet sich das System 201 in einem 
K Zustand x^. Der Zustand ist fiir einen Beobachter des Sy- 
W stems beobachtbar. Aufgrund einer Aktion a-^^ aus einer Menge 
in dem Zustand x^ moglicher Aktionen, a-^ g A(xt) geht das 
System mit einer gewissen Wahrscheinlichkeit in einen Folge- 
zustand x-^-^^ zu einem Folgezeitpunkt t + 1 iiber. 

30 

Dies ist durch eine Schleife in Fig. 2 symbolisch dargestellt. 
Ein Beobachter 200 nimmt beobachtbare Grolien uber den Zustand 
x^ wahr 202 und trifft eine Entscheidung uber eine Aktion 
203, mit der er auf das System 201 einwirkt. Das System 201 
35 unterliegt ublicherweise einer Storung 205. 

Ferner erhalt der Beobachter 200 einen Gewinn rt 204 
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= ^(^t/ ^t' ^t + l) ^ 



91 



(1) 



der von der Aktion at 203 und dem ursprunglichen Zustand xt 
5 zu dem Zeitpunkt t sowie dem Folgezustand xt+i des Systems zu 
dem Folgezeitpunkt t+1 abhangt. 

Der Gewinn kann einen positiven oder negativen skalaren 
Wert annehmen, je nachdem, ob die Entscheidung zu einer hin- 
10 sichtlich eines vorgebbaren Kriteriums positiven oder negati- 
ven Systementwicklung fuhrt, in [1] zu einer Kapitalvermeh- 
rung oder zu einem Verlust. 

In einem weiteren Zeitschritt entscheidet sich der Beobachter 
15 200 des Systems 201 aufgrund der beobachtbaren Grofien 202, 
204 des Folgezustandes x^+i fiir eine neue Aktion at + i usw. 

Eine Folge von 



20 



30 



Zustand: ^t e X 

Aktion: ^t e A(xt) 

Folgezustand: ^t+1 ^ ^ 

Gewinn = r(xt, at, xt +i) G 5R 



usw. beschreibt eine Trajektorie des Systems, die durch ein 
Perf ormanzkriterium, das die einzelnen Gewinne r^ iiber die 
Zeitpunkte t akkumuliert, bewertet wird. Bei einem Markov- 
Entscheidungsproblem wird vereinf achend angenommen, dalJ der 
25 Zustand x^ und die Aktion a^ alle Inf ormationen enthalten, um 
eine Ubergangswahrscheinlichkeit p(xt + i|-) des Systems von dem 

Zustand x^ zu dem Folgezustand x^+i zu beschreiben. 




Formal bedeutet dies : 

p(>^t + lht' K , XQ, at, K , ao) = p(xt +lht' ^t ) • (2) 
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Mit p(xt -hi|xt/ at ) wird eine Obergangswahrscheinlichkeit fur 

den Folgezustand x^+i bei gegebenem Zustand und gegebener 
Aktion at bezeichnet. 

5 Bei einem Markov-Entscheidungsproblem hangen also zukilnftiqe 
Zustande des Systems 201 nicht von Zustanden und Aktionen ab, 
die weiter als einen Zeitschritt in der Vergangenheit liegen. 

Zusammenf assend sind im weiteren die Charakteristika eines 
10 Markov-Entscheidungsproblems dargestellt : 

X Menge der moglichen Zustande des Systems, 

z.B. X = 5R^, 

A(xt) Menge der moglichen Aktionen in dem Zu- 

stand 

p(xt + lNt^ ^t) 

r(xt, at, xt-hi) Gewinn mit Erwartungswert R(xt/ at) . 




Das Ziel ist es, ausgehend von beobachtbaren Grolien, den im 
weiteren als Trainingsdaten bezeichneten GroJien, eine Strate- 
15 gie zu ermitteln, d.h. eine Folge von Funktionen 

^ = {l^O' 1^1' , |It} ' (3) 

welche zu jedem Zeitpunkt t jeden Zustand in eine Handlungs- 
20 vorschrift, d.h. Aktion 

MtK) = at (4) 



abbilden , 

25 

Eine solche Strategic wird durch eine Optimierungsf unktion 
bewertet - 
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Die Optimierungsfunktion gibt den Erwartungswert , der uber 
die Zeit akkumulierten Gewinne bei einer gegebenen Strategie 
71 und einem Startzustand xq an. 



5 Als ein Beispiel eines Verfahrens des approximativen dynami- 
schen Programmierens ist in [1] das sogenannte Q- 
Lernverf ahren beschrieben. 



10 



Eine optimale Bewertungsf unktion V* (x) ist definiert durch 



V*(x) = max v"(x) Vx eX 

71 



(5) 



mit 



15 V^(x) = E 



00 



^ Y^r(xt, |Xt, xt + i)|xo = X 
.t = 0 



(6) 



wobei mit y ein vorgebbarer Verringerungsf aktor bezeichnet 
wird, der gemali folgender Vorschrift gebildet wird: 



20 Y = 



1 + z 



(7) 



z e 91' 



(8) 



Im Rahmen des Q-Lernverf ahrens wird fiir jedes Paar 
25 (Zustand xt, Aktion at) eine Q-Bewertungsf unktion Q*(xt, at) 
gemali folgender Vorschrift gebildet: 

Q*(xt, at) = Z p(xt + l|xt' at) • rt + 

xgX 

+Y • S pH^t' ^t) • max(Q*(x, a)) 



30 



xeX 



a eA 



(9) 
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Aufgrund jeweils des Tupels (x^ f +i, / r-^ ) werden die Q- 

Werte Q*(x,a) in der k+l ten Iteration gemali folgender Lern- 
regel mit einer vorgegebenen Lernrate t|}^ gemalJ folgender Vor- 
schrif t adaptiert : 





Qk + l(>^t' ^t) = (l - nk)Qk(xt' ^t) + Tik rt + y max(Qk(xt + i, a))l . (10) 

V aeA ^ 



Ublicherweise werden die sogenannten Q-Werte Q* (x, a) durch 

10 jeweils einen Funktionsapproximator, beispielsweise ein neu- 

ronales Netz oder auch einen Polynomklassif ikator , mit einem 

a 

Gewichtsvektor w , der Gewichte des Funktionsapproxxmators 
enthalt, flir verschiedene Aktionen a approximiert . 

15 Unter einem Funktionsapproximator ist beispielsweise ein neu- 
ronales Netz, ein Polynomklassif ikator oder auch eine Kombi- 
nation eines neuronalen Netzes mit einem Polynomklassif ikator 
zu verstehen. 

20 Es gilt also: 

Q*(x, a) « q(x; w^j . (11) 

a 

Anderungen der Gewichte in dem Gewichtsvektor w basieren auf 
25 einer temporaren Differenz d^, die gemaiJ folgender Vorschrift 
gebildet wird: 

dt: = r(xt,at, xt+i) + Y max Qlxt + i; w^l - ofxt; w^^J (12) 

aeA ^ ' 

30 Es ergibt sich flir das Q-Lernverf ahren unter Verwendung eines 
neuronalen Netzes folgende Adaptionsvorschrif t fur die Ge- 
wichte des neuronalen Netzes, welche Gewichte in dem Ge- 
a 

wichtsvektor w enthalten sind: 
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w 



(13) 



Unter Verwendung der Trainingsdaten, die als Zeitreihenwerte 
Inf ormationen iiber vorangegangene Kursverlaufe eines Finanz- 
marktes beschreiben, wird das neuronals Netz, welches das Sy- 
stem Finanzmarkt, wie in [1] beschrieben, darstellt, trai- 
niert. 



Ein weiteres Verfahren der approximativen dynamischen Pro- 
10 grammierung, das sogenannte TD (A.) -Lernverf ahren, ist aus [2] 
bekannt und wird im Zusammenhang mit einem Ausf iihrungsbei- 
spiel naher erlautert. 

Ferner ist aus [3] bekannt, welches Risiko mit einer Strate- 
15 gie n und einem Ausgangszustand xt verbunden ist. Ein Verfah- 
ren zur Risikovermeidung ist ebenfalls aus [3] bekannt. 

Bei dem aus [3] bekannten Verfahren wird folgende Optimie- 
rungsf unktion, welche auch als erweiterte Q-Funktion 
20 Q^(^t' ^t) bezeichnet wird, verwendet: 




25 



maxxmiere 



Q^(xt, at): = r(xt, a^, xt + i) + inf 

xprXi,K 

p(xo, XI, k)>0 



00 



Z rM^k' ^(^k)' xk + l) 
k = l 

(14) 




Die erweiterte Q-Funktion Q^(x-|-, a^) beschreibt den schlechte- 

sten Fall, falls in dem Zustand x^ die Aktion at ausgefuhrt 
wird und die Strategic n daraufhin verfolgt wird. 



30 Die Optimierungsfunktion Q^(xt/ at) fur 
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Q*(xt, at): = max Q^(xt, at) 
7t en 

(15) 

ist gegeben, durch folgende Vorschrift: 



Q*(xt, at) = min ^(^t' ^t/ + Y * ^nnax Q*(x, a) . (16) 

xeX ^ aeA ^ 

p(xt + i|xt^at)>o 

Ein erheblicher Nachteil dieser Vorgehensweise ist darin zu 
sehen, dafi nur der schlechteste Fall im Rahmen der Strategie- 
findung beriicksichtigt wird. Dies spiegelt jedoch die Anfor- 
derungen verschiedenster technischer Systeme nur in unzurei- 
chendem Ausmafi wieder. 



Aus [4] ist es ferner bekannt, eine Zugangskontrolle fiir ein 
15 Kommunikationsnetz sowie das Routing innerhalb des Kommunika- 
tionsnetzes als ein Problem der dynamischen Programmierung zu 
f ormulieren. 




Somit liegt der Erfindung das Problem zugrunde, ein Verfahren 
20 sowie eine Anordnung zur Ermittlung einer Folge von Aktionen 
fiir ein System anzugeben, bei dem bzw. bei der eine erhohte 
Flexibilitat bei der Ermittlung der Strategie erreicht wird- 

Das Problem wird durch das Verfahren sowie durch die Anord- 
25 nung gemaft den Merkmalen der unabhangigen Patentanspruche ge- 
lost . 



Bei einem Verfahren zur rechnergestutzten Ermittlung einer 
Folge von Aktionen fiir ein System, welches Zustande aufweist, 
30 wobei ein Zustandsubergang zwischen zwei Zustanden aufgrund 
einer Aktion erfolgt, erfolgt die Ermittlung der Folge von 
Aktionen derart, dafi eine aus der Folge von Aktionen resul- 
tierende Folge von Zustanden hinsichtlich einer vorgegebenen 
Optimierungsf unktion optimiert ist, wobei die Optimierungs- 
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funktion einen variablen Parameter enthalt,.mit dem ein Risi- 
ko, welches die resultierende Folge von Zustanden hinsicht- 
lich eines vorgegebenen Zustandes des Systems aufweist, ein- 
stellbar ist. 




Eine Anordnung zur Ermittlung einer Folge von Aktionen fur 
ein System, welches Zustande aufweist, wobei ein Zu- 
standsubergang zwischen zwei Zustanden aufgrund einer Aktion 
erfolgt, weist einen Prozessor auf, der derart eingerichtet 

10 ist, dafi die Ermittlung der Folge von Aktionen derart erfol- 
gen kann, daii eine aus der Folge von Aktionen resultierende 
Folge von Zustanden hinsichtlich einer vorgegebenen Optimie- 
rungsf unktion optimiert ist, wobei die Optimierungsf unktion 
einen variablen Parameter enthalt, mit dem ein Risiko, wel- 

15 ches die resultierende Folge von Zustanden hinsichtlich eines 
vorgegebenen Zustandes des Systems aufweist, einstellbar ist. 

Durch die Erfindung wird es erstmals moglich, in frei vorgeb- 
barer Genauigkeit im Rahmen einer Strategief indung fur eine 
20 moglichen Regelung oder Steuerung, allgemein einer Beeinflus- 
sung des Systems, ein Verfahren zur Ermittlung einer Folge 
von Aktionen anzugeben. 



Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den 
25 abhangigen Anspriichen. 

Die im weiteren beschriebenen Weiterbildungen gelten sowohl 
fur das Verfahren als auch die Anordnung, wobei bei der Wei- 
terbildung der Anordnung jeweils der Prozessor derart einge- 
30 richtet ist, dali die Weiterbildung realisierbar ist. 




In einer bevorzugten Ausgestaltung wird zur Ermittlung ein 
Verfahren des approximativen dynamischen Programmierens ein- 
gesetzt, beispielsweise ein auf dem Q-Lernen basierendes Ver- 
35 fahren oder auch ein auf dem TD (X) -Lernen basierendes Verfah- 
ren . 
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Im Rahmen des Q-Lernens wird bevorzugt die Optimierungsf unk- 
tion OFQ gemaft folgender Vorschrift gebildet: 



OFQ = q(x; w^) , 



wobei mit 



• X ein Zustand in einem Zustandsraum X, 



10 • die zur Aktion a gehorigen Gewichte eines Funktions 



• a eine Aktion aus einem Aktionsraum A, 
a 

w die zur Akt 
approximators 

bezeichnet wird/werden. 

15 Im Rahmen des Q-Lernens wird zur Ermittlung der optimalen Ge- 
wichte w^ des Funktionsapproximators folgender Adaptions- 
schritt ausgef uhrt : 

mit der Abkiirzung 

dt = r(xt, at, xt + i) + y max Qlxt + l/ ^t) " ^[^t^ ^t^j 

aeA ^ / V y 

25 wobei mit 

• xt/ ^t+l jeweils ein Zustand in dem Zustandsraum X, 

• at eine Aktion aus einem Aktionsraum A, 

• Y vorgebbarer Verringerungsf aktor , 

at 

30 • wt der zur Aktion at gehorige Gewichtsvektor vor dem Ad- 
apt ions schritt, 
a+- 

• der zur Aktion at gehorige Gewichtsvektor nach dem 

Adapt ions schritt, 

• r|t (t = 1, ...) eine vorgebbare Schrittweitenf olge. 
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•KG [-1; 1] ein Risikokontrollparameter , 

• eine Risikokontrollf unktion K^(^) = (l - Ksign(§))§, 

• Vq(-;-) die Ableitung des Funktionsapproximators nach seinen 
Gewichten, 

5 • ^(^t^ ^t^ ^t + l) Gewinn beim Zustandsubergang von dem Zu- 

stand xt nach dem Folgezustand xt+i/ 

bezeichnet wird/werden. 

10 Im Rahmen des TD (X.) -Lernverf ahrens wird die Optimierungsf unk- 
tion bevorzugt gemaii folgender Vorschrift gebildet: 

OFTD = j(x; w) 



15 wobei mit 



• X ein Zustand in einem Zustandsraum X, 

• a eine Aktion aus einem Aktionsraum A, 

• w die Gewichte eines Funktionsapproximators 

20 

bezeichnet wird/werden . 

Im Rahmen des TD ( A,) -Lernens wird zur Ermittlung der optimalen 



Gewichte w des Funktionsapproximators folgender Adaptions- 
25 schritt ausgefiihrt: 




wt + 1 = + Tit • ^^(^t) * 2t 
mit den Abkurzungen 

30 

dt = r(wt, at, xt + i) + Yj(xt + i; wt) - j(xt; wt), 
2t = A, • y • zt - 1 + ^ j(xt ' ^t ) ' 



35 2_i = 0 , 



GR 98 P 2663 



11 



wobei mit 



x^^ xt+i jeweils ein Zustand in dem Zustandsraum X, 
at eine Aktion aus einem Aktionsraum A, 
y ein vorgebbarer Verringerungsf aktor , 



10 




15 



wt der Gewichtsvektor vor dem Adaptionsschritt , 
wt+i der Gewichtsvektor nach dem Adaptionsschritt, 
Tit (t = 1, ...) eine vorgebbare Schrittweitenf olge, 
K G [-1; 1] ein Risikokontrollparameter , 

eine Risikokontrollf unktion K^(^) = (l - Ksign(§))^ , 
Vj(-;-) die Ableitung des Funktionsapproximators nach seinen 
Gewichten, 

r(xt/ atf xt + i) ein Gewinn beim Zustandsubergang von dem Zu- 
stand xt nach dem Folgezustand xt+if 



bezeichnet wird/werden . 



Das System ist bevorzugt ein technisches System, von dem vor 
der Ermittlung MefigroBen gemessen werden, die bei der Ermitt- 
20 lung der Folge von Aktionen verwendet werden. 



Unter Verwendung der ermittelten Folge von Aktionen kann das 
technische System gesteuert oder auch geregelt werden - 

Bevorzugt wird das System als ein Markov-Entscheidungsproblem 
modelliert . 



Das Verfahren oder die Anordnung werden bevorzugt in einem 
Verkehrsleitsystem oder in einem Kommunikationssystem einge- 
30 setzt, wobei in dem Kommunikationssystem die Folge von Aktio- 
nen zur -Durchf vihrung einer Zugangskontrolle oder eines Rou- 
tings, also einer Pfadvergabe, in einem Kommunikationsnetz 
eingesetzt wird. 

35 Ferner kann das System ein Finanzmarkt sein, welcher durch 

ein Markov-Entscheidungsproblem modelliert wird und wobei der 
Verlauf des Finanzmarkts , beispielsweise ein Verlauf eines 



5 
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Aktienindex oder auch ein Kursverlauf eines Devisenmarktes 
unter Verwendung der Verfahren bzw. der Anordnung analysiert 
und in den Markt entsprechend der Folge ermittelter Aktionen 
eingegriffen werden kann. 




Ausf uhrungsbeispiele der Erfindung sind in den Figuren darge- 
stellt und werden im weiteren naher erlautert. 

Es zeigen 

Figur 1 ein Ablauf diagramm, in dem einzelne Verf ahrensschrit- 
te des ersten Ausf iihrungsbeispiels dargestellt sind; 

Figur 2 eine Skizze eines Systems, welches als Markov- 
15 Entscheidungsproblem modelliert werden kann; 

Figur 3 eine Skizze eines Kommunikationsnetzes, bei dem in 
einer Vermittlungseinheit eine Zugangskontrolle 
durchgef iihrt wird; 

20 

Figur 4 eine symbolische Skizze eines Funktionsapproximators ^ 
mit dem ein Verfahren des approximativen dynamischen 
Programmierens realisiert wird; 

25 Figur 5 eine weitere Skizze von mehreren Funktionsapproxi- 

matoren, mit dem ein approximatives dynamisches Pro- 
grammieren implementiert wird; 




Figur 

30 



6 eine Skizze eines Verkehrsleitsystems, welches gemali 
einem Ausf uhrungsbeispiel geregelt wird. 
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Erstes Ausf uhrungsbexspiel : Zugangskontrolle und Routing. 

Fig, 3 zeigt ein Kommunikationsnetz 300, welches eine Vielzahl 
von Vermittlungseinheiten 301a, 301b, 301i, 301n 

5 aufweist, die uber Verbindungen 302a, 302b, 302 j, ... 302m 
miteinander verbunden sind. 

Ferner ist ein erstes Endgerat 303 mit einer ersten Vermitt- 
lungseinheit 301a verbunden. Von dem ersten Endgerat 303 wird 
10 eine Anf orderungsnachricht 304 an die erste Vermittlungsein- 
heit 301a gesendet, mit der eine Reservierung einer vorgege- 
benen Bandbreite innerhalb des Kommunikationsnetzes 300 zur 
Obertragung von Daten (Videodaten, textuelle Daten) angefor- 
dert wird. 

15 

In der ersten Vermittlungseinheit 301a wird gemali einer im 
weiteren beschriebenen Strategie ermittelt, ob die angefor- 
derte Bandbreite in dem Kommunikationsnetz 300 auf einer an- 
gegebenen, angef orderten Verbindung verfugbar ist 
20 (Schritt 305) . 




1st dies nicht der Fall, so wird die Anforderung zuruckgewie- 
sen (Schritt 306) . 

Ist ausreichend Bandbreite verfugbar, so wird in einem weite- 
ren Uberprufungsschritt (Schritt 307) uberpruft, ob die Band- 
breite reserviert werden kann. 



Ist dies nicht der Fall, so wird die Anforderung zuruckgewie- 
30 sen (Schritt 308) . 

Sonst wird von der ersten Vermittlungseinheit 301a eine Route 
von der ersten Vermittlungseinheit 301a uber weitere Vermitt- 
lungseinheiten 301i zu einem zweiten Endgerat 309, mit dem 
35 das erste Endgerat 303 kommunizieren will, ausgewahlt und es 
wird eine Verbindung initialisiert (Schritt 310) . 
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Im folgenden wird von einem Kommunikationsnetz 300 ausgegan- 
gen, welches einen Satz von Vermittlungseinheiten 

N= {l,K , n,K , n} (17) 
5 und einen Satz von physikalischen Verbindunqen 

L- {l, K , 1,K , l} , (18) 

umfafit, wobei eine physikalische Verbindung 1 eine Kapazitat 
10 von B(l) Bandbreiteneinheiten aufweist. 

Es sind ein Satz 

M= {l, K , m, K , m} (19) 
15 

verschiedener Diensttypen m verfligbar, wobei ein Diensttyp m 
durch 

♦ einen Bandbreitenbedarf b (m) , 

• eine durchschnittliche Verbindungsdauer ^ \ f 

v(m) 

20 • einen Gewinn c (m) , den man dann erhalt, wenn eine Verbin- 

dungsanf orderung des entsprechenden Diensttyps m akzeptiert 
wird, 

charakterisiert ist . 

25 Der Gewinn c (m) ist gegeben durch die Menge des Geldes, die 
ein Net zwerkbetreiber des Kommunikationsnetzes 300 einem 
Teilnehmer fur eine Verbindung des Diensttyps in Rechnung 
stellt. Anschaulich spiegelt der Gewinn c (m) unterschiedli- 
che, von dem Netzbetreiber vorgebbare Prioritaten wider, die 

30 er mit verschiedenen Diensten assoziiert. 

Eine physikalischen Verbindung 1 kann gleichzeitig eine be- 
liebige Kombination von Kommunikationsverbindungen bereit- 
stellen, solange die genutzte Bandbreite der Kommunikations- 
35 verbindungen nicht die insgesamt verfiigbare Bandbreite der 
physikalischen Verbindung ubersteigt- 
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Wird eine neue Kommunikationsverbindung des Typs m angefor- 
dert zwischen einem ersten Knoten i und einem zweiten Knoten 
j (Endgerate werden auch als Knoten bezeichnet) , so kann die 
5 angeforderte Konmunikationsverbindung, wie oben dargestellt, 
entweder akzeptiert oder zuriickgewiesen werden. 

Wird die Kommunikationsverbindungen akzeptiert, so wird eine 
Route aus einer Menge vorgegebener Routen ausgewahlt. Diese 
10 Auswahl wird als Routing bezeichnet. Im Rahmen der Kommunika- 
tionsverbindung vom Typ m werden b{m) Bandbreiteneinheiten 
fur jede physikalische Verbindung entlang der ausgewahlten 
Route fiir die Verbindungsdauer benutzt. 

15 Somit kann im Rahmen der Zugangskontrolle (Call-Admission- 
Control) eine Route innerhalb des Kommunikationsnetzes 300 
nur ausgewahlt werden, wenn die ausgewahlte Route ausreichend 
Bandbreite zur Verfugung hat. 

20 Ziel der Zugangskontrolle und des Routings ist es, einen 

langf ristigen Gewinn, der durch Akzeptanz der angef orderten 
Verbindungen erhalten wird, zu maximieren, 

Das technische System Kommunikationsnetz 300 befindet sich zu 
einem Zeitpunkt t in einem Zustand x^^ welcher durch eine Li- 
ste von Routen uber bestehende Verbindungen beschrieben wird, 
durch welche Listen angezeigt ist, wie viele Verbindungen 
welchen Diensttyps zu dem Zeitpunkt t die jeweilige Route 
verwenden , 

Ereignisse w, durch die ein Zustand x^ in einen Folgezustand 
x^ + i iiberfuhrt werden konnte, sind das Ankommen neuer Verbin- 
dungsanf orderungsnachrichten oder auch das Beenden einer in 
dem Kommunikationsnetz 300 bestehenden Verbindung. 

Eine Aktion a^ zu einem . Zeitpunkt t aufgrund einer Verbin- 
dungsanf orderung ist in diesem Ausf uhrungsbeispiel die Ent- 



30 



35 
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scheidung, ob eine Verbindungsanf orderung akzeptiert Oder zu- 
rlickgewiesen werden soli und, falls die Verbindung akzeptiert 
wird, die Auswahl der Route durch das Kommunikationsnetz 300. 

Ziel ist die Ermittlung einer Folge von Aktionen, d.h. an- 
schaulich das Lernen einer Strategie mit Aktionen zu einem 
Zustand x-j- zu bestimmen derart, dafi folgende Vorschrift maxi- 
miert wird: 



r oo 



Z e P^k . g(xtj^, cok, at^) 



(20) 



Vk = 0 
wobei mit 

• E{ . } ein Erwartungswert , 

15 • tk ein Zeitpunkt, zu dem ein k-tes Ereignis erfolgt, 

• g^x^j^ / co]^, a^j^ ^ der Gewinn, der mit dem k-ten Ereignis ver- 

bunden ist, und 

• p ein Verringerungsf aktor, der einen sofortigen Gewinn 
wertvoller bewertet als ein Gewinn in ferner in der Zukunft 

20 liegenden Zeitpunkten, 




bezeichnet wird. 



Unterschiedliche Realisierungen einer Strategie fuhren iibli- 




25 cherweise zu unterschiedlichen Gesamtgewinnen G: 
CO 

G= • g(xtk'Wk, at,^). (21) 

k = 0 



30 Ziel ist die Maximierung des Erwartungswerts des Gesamtge- 
winns G gemali folgender Vorschrift J: 
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J = £■ 



00 



k = 0 



(22) 



wobei ein Risiko, dafi der Gesamtgewinn G einer speziellen 

Realioierung ein e r Zugain^&kcjntrolle und elutii — RuuLliiy- 

5 Strategie unter den Erwartungswert sinkt, einstellbar ist. 

Zur Durchfuhrung der Zugrif f skontrolle sowie zum Routing wird 
das TD (X,) -Lernverf ahren eingesetzt . 

Es wird folgende Zielfunktion im Rahmen dieses Ausfiihrungs- 
beispiels eingesetzt : 

J*(xt) = ET.|e'P'^jEoj|maxJg(xt, ©t' ^) + J*(xt + l)]jr (23) 
15 wobei mit 

• A ein Aktionsraum mit einer vorgegebenen Anzahl Aktionen, 
die in einem Zustand jeweils zur Verfugung stehen, 

• T ein erster Zeitpunkt, zudem ein erstes Ereignis (o er- 
20 folgt, 

• x^+i ein Folgezustand des Systems/ 

bezeichnet wird. 

25 Ein approximierter Wert des Zielwerts J*(xt) wird unter Ver- 
wendung eines Funktionsapproximators 400 (vgl. Fig . 4 ) unter 
Verwendung von Trainingsdaten gelernt und gespeichert. 

Trainingsdaten sind zuvor in dem Kommunikationsnet z 300 ge- 
30 messene Daten iiber das Verhalten des Kommunikationsnet zes 300 
bei ankommenden Verbindungsanf orderungen 304 sowie bei Been- 
digung von Nachrichten. Diese zeitliche Folge von Zustanden 
wird gespeichert und mit diesen Trainingsdaten wird der Funk- 
tionsapproximator 400 gemafi dem im weiteren beschriebenen 
35 Lernverf ahren trainiert. 
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Als Eingangsgrolie des Funktionsapproximators 400 dienen fur 
jeden Eingang 401, 402, 403 des Funktionsapproximators 400 
jeweils eine Anzahl von Verbindungen jeweils eines Diensttyps 
5 m auf einer Route des Koininunikationsnetzes 300. Diese sind in 
Fig ■ 4 durch Blocke 404, 405, 406 symbolisch dargestellt. 

Ausgangsgrofie des Funktionsapproximators 400 ist ein approxi- 
mierter Zielwert J des Zielwerts J . 

10 

Eine detailliertere Darstellung des Funktionsapproximators 
500, welcher in diesem Fall mehrere Teil- 

Funktionsapproximatoren 510, 520 des Funktionsapproximators 
500 aufweist, zeigt Fig . 5 , Eine AusgangsgroBe ist der 
15 approximierte Zielwert J, der gemafi folgender Vorschrift ge- 
bildet wird: 




(24) 



20 Die Eingangsgroiien der Teilf unktionsapproximatoren 510, 520, 
die an Eingangen 511, 512, 513 des ersten Teil- 
Funktionsapproximators 510 bzw. an Eingangen 521, 522 und 523 
des zweiten Teilf unktionsapproximators 520 anliegen, sind 
wiederum jeweils eine Anzahl von Diensttypen eines Typs m je- 

25 weils in einer physikalischen Verbindung r, symbolisiert 
durch Blocke 514, 515, 516 fur den ersten Teil- 
Funktionsapproximator und 524, 525 und 526 fur den zweiten 
Teil-Funktionsapproximator 520 . 




30 Teilausgangsgrofien 530, 531, 532, 533 werden einer Addierein- 
heit 540 zugefuhrt und als AusgangsgroBe der Addiereinheit 
wird die approximierte ZielgroBe J gebildet. 

Angenommen, das Kommunikationsnet z 300 befindet sich in dem 
35 Zustand x^j^ und eine Anf orderungsnachricht , mit der ein 

Diensttyp m der Klasse m fiir eine Verbindung zwischen zwei 
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Knoten i, j angefordert wird, gelangt zu der ersten Verbin- 
dungseinheit 301a . 

Mit R{i, j) wird eine Liste erlaubter Routen zwischen den 
5 Knoten i und j bezeichnet und mit 

R(i, >xtj^) c: R(i, j) (25) 

wird eine Liste aller moglichen Routen als Teilmenge der Rou- 
10 ten R(i, j) bezeichnet, die hinsichtlich der verfugbaren und 
angef orderten Bandbreite eine mogliche Verbindung realisieren 
konnten . 

Fur jede mogliche Route r, r g R^i, j, xtj^ j wird ein Folgezu- 

15 stand x^j^ +i^xtj^ , co^, rj ermittelt, der daraus resultiert, dali 

die Verbindungsanf orderung 304 akzeptiert wird und die Ver- 
bindung auf der Route r dem anfordernden ersten Endgerat 303 
zur Verfugung gestellt wird. 

20 Dies ist in Fig. 1 als zweiter Schritt (Schritt 102) darge- 
stellt, wobei in einem ersten Schritt (Schritt 101) jeweils 
der Zustand des Systems sowie das jeweilige Ereignis festge- 
stellt werden. 




Es wird in einem dritten Schritt (Schritt 103) eine auszuwah- 
lende Route r* gemafi folgender Vorschrift ermittelt: 



r 



= arg max 5(xt,^ + l(^tk ^ r)/ ®t) • (26) 
-7(i,j,xtj^) 



r eR 



30 In einem weiteren Schritt (Schritt 104) wird uberpruft, ob 
folgende Vorschrift erfullt ist: 

c(m) + j(^xt,^ +l(xt^, cok, r*j, ©t) <5(xtj^,0t)- (27) 



5 



25 
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1st dies der Fall, so wird die Verbindungsanf orderung 304 zu- 
riickgewiesen (Schritt 105), sonst wird die Verbindung akzep- 
tiert und entlang der ausgewahlten Route r* zu dem Knoten j 
,,durchgeschaltef (Schritt 106) . 




In einem Parametervektor 0 sind jeweils fur einen Zeitpunkt 
t Gewichte des Funktionsapproximators 400, 500 gespeichert, 
die im Rahmen des TD (X) -Lernverf ahrens an die Trainingsdaten 
adaptiert werden, so dali eine optimierte Zugangskontrolle und 
10 ein optimiertes Routing erreicht wird. 

Wahrend der Trainingsphase werden die Gewichtsparameter an 
die dem Funktionsapproximator angelegten Trainingsdaten ange 
palit . 

15 

Es wird ein Risikoparameter k definiert, mit dem ein ge- 
wiinschtes Risiko, welches durch eine Folge von Aktionen und 
Zustanden hinsichtlich eines vorgegebenen Zustands des Sy- 
stems aufweist, einstellbar ist, gemaii folgenden Vorschrif- 
20 ten: 

-1 < K < 0: risikoreiches Lernen, 

K = 0: hinsichtlich des Risikos ein neutrales Lernen, 

0 < K < 1: ein risiko-vermeidendes Lernen, 

K = 1: „Worst-Case"-Lernen. 




30 Fernen wird im Rahmen des Lernverf ahrens ein vorgebbarer Pa- 
rameter 0 < A. < 1 und eine Schrittweitenf olge vorgegeben. 

Die Gewichtswerte des Gewichtsvektors 0 werden auf grand je- 
des Ereignisses (o^j^ gemafl folgender Adaptionsvorschrif t an 

35 die Trainingsdaten angepalit: 



©k - ©k-l + Yk^'^ldkK. 



(28) 
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wobei 



dk = e ^k-l)|g(xtj^,o)k, at^) + j(xt]^,0)c-l)) - j(xtk_i'®k-l) 

■■ 



zt = ?.e-P(^k-l-tk-2)2t_^ + V0j(xt,^_l,0k-l). 



(30) 



10 




und 



K^(4) = (l - Ksign(4))^. 



Es wird angenommen: Z_i = 0, 



15 Die Funktion 



(31) 



(32) 



20 




bezeichnet den sofortigen Gewinn gemali folgender Vorschrift: 



c(m) wenn cotj^ist eine Diens tan forderung eines 
Diensttyps m und die Verbindung wird 
akzeptiert 

0 sonst 

(33) 



Es wird also, wie oben beschrieben, eine Folge von Aktionen 
25 ermittelt, hinsichtlich einer Verbindungsanf orderung, so daI3 
eine Verbindungsanf orderung aufgrund einer Aktion entweder 
zuruckgewiesen oder akzeptiert wird. Die Ermittlung erfolgt 
unter Beriicksichtigung einer Optimierungsf unktion, in der das 
Risiko mittels eines Risikokontrollparameters k g [-1; 1] 
30 variabel einstellbar ist. 
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Zwex'bes Ausf iihrungsbelsplel : Verkehrs lei t system 

Fig, 6 zeigt eine StraJie 600, die von Autos 601, 602, 603, 
604, 605 und 606 befahren ist. 

__5 

In die Strafie 600 integrierte Leiterschleif en 610, 611 nehmen 
elektrische Signale in bekannter Weise auf und fuhren die 
elektrischen Signale 615, 616, einem Rechner 620 uber eine 
Eingangs-/Ausgangsschnittstelle 621 zu. In einem mit der Ein- 

10 gangs-/Ausgangsschnittstelle 621 verbundenen Analog-/Digital- 
Wandler 622 werden die elektrischen Signale in eine Zeitreihe 
digitalisiert und in einem Speicher 623, der liber einen Bus . 

624 mit dem Analog-/Digital-Wandler 622 und einem Prozessor \ 

625 verbunden ist, gespeichert- Ober die Eingangs- 

15 /Ausgangsschnittsstelle 621 werden einem Verkehrsleitsystem 
650 Steuerungssignale 651 zugefuhrt, aus denen in dem Ver- 
kehrsleitsystem 650 eine vorgegebene Geschwindigkeitsvorgabe 
652 einstellbar ist oder auch weitere Angaben von Verkehrs- 
vorschrif ten, die iiber das Verkehrsleitsystem 650 Fahrern der 

20 Fahrzeuge 601, 602, 603, 604, 605 und 606 dargestellt werden. 



Zur Verkehrsmodellierung werden in diesem Fall folgende loka- 
le Zustandsgroiien verwendet: 

• Verkehrsf lufigeschwindigkeit v, 

25 • Fahr zeugdichte p (p = Anzahl von Fahrzeugen pro Kilome- 
Fz 

ter — ) , 
km 

Fz 

• Verkehrsf luft q (q = Anzahl der Fahrzeuge pro Stunde — , 

h 

(q= V * p) ) , und 

• jeweils zu einem Zeitpunkt von dem Verkehrsleitsystem 650 
30 angezeigte Geschwindigkeitsbegrenzungen 652. 




Die lokalen Zustandsgroiien werden wie oben beschrieben unter 
Verwendung der Leiterschleif en 610, 611 gemessen. 
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Somit stellen diese Groften (v(t), p(t), q(t)) einen Zustand 
des technischen Systems "Verkehr" zu einem bestimmten Zeit- 
punkt t dar. 

5 In diesem Ausf uhrungsbeispiel ist somit das System ein Ver- 
kehrssystem, welches unter Verwendung des Verkehrsleitsystems 
650 geregelt wird. 

Als Verfahren des approximativen dynamischen Programmierens 
10 wird in diesem zweiten Ausf uhrungsbeispiel ein erweitertes Q- 
Lernverf ahren beschrieben. 




Der Zustand x-^;^ wird beschrieben durch einen Zustandsvektor 



1 5 x(t> = (v(t> p(t> q(t)) . ( 34 ) 



20 




Die Aktion at bezeichnet die Geschwindikeitsbegrenzung 652, 
die zum Zeitpunkt t von dem Verkehrsleitsystem 650 angezeigt 
wird. 

Der Gewinn r(xtf at, xt + i) beschreibt die Giite des Verkehrs- 
flusses, der zwischen den Zeitpunkten t und t+1 von den Lei- 
terschleifen 610 und 611 gemessen wurde. Im Rahmen dieses 
zweiten Ausf uhrungsbeispiels bezeichnet r(xt, 

• die mittlere Geschwindigkeit der Fahrzeuge im Zeitintervall 
[t, t + 1], 



30 



Oder 



• die Anzahl der Fahrzeuge, die im Zeitintervall [t, t + 1] 
die Leiterschleif en 610 und 611 passiert haben. 



Oder 

35 

• die Varianz der Fahrzeuggeschwindigkeiten im Zeitintervall 
[t, t + 1], 
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Oder 



• eine gewichtete Summe aus den obigen GroBen, 



35 




Fur jede mogliche Aktion at^ d.h. ftir jede von dem Verkehrs- 
leitsystem 650 anzeigbare Geschwindigkeitsbegrenzung, wird 
ein Wert der Optimierungsf unktion OFQ ermittelt, wobei je- 
weils ein geschatzter Wert der Optimierungsf unktion OFQ als 
10 neuronales Netz realisiert wird. 

Aus diese Weise ergibt sich eine Menge von BewertungsgroBen 
fur die unterschiedlichen Aktionen at in dem Systemzustand 

15 

In einer Regelungsphase wird aus den moglichen Aktionen at/ 
d.h. aus der Menge der von dem Verkehrsleitsystem 650 anzeig- 
baren Geschwindigkeitsbegrenzungen, diejenige Aktion at aus- 
gewahlt, fur die in dem aktuellen Systemzustand xt die maxi- 
20 male Bewertungsgrolie OFQ ermittelt worden ist. 

Die aus dem Q-Lernverf ahren bekannte Adaptionsvorschrif t zur 
Berechnung der Optimierungsf unktion OFQ wird gemali diesem 
Ausf uhrungsbeispiel urn eine Risikokontrollf unktion K^Q f die 
25 das Risiko beriicksichtigt , erweitert. 

Wiederum wird der Risikokontrollparameter k gemaB der Strate- 
gic aus dem ersten Ausf uhrungsbeispiel im Intervall von 
[-1 < K < 1] vorgegeben und reprasentiert das Risiko, das ein 
30 Benutzer im Rahmen der Anwendung hinsichtlich der zu bestim- 
menden Kpntrollstrategie eingehen will. 

GemaB diesem Ausf uhrungsbeispiel wird folgende Bewertungs- 
f unktion OFQ verwendet: 




OFQ = q(x; w^) , (35) 
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wobei mit 

• X = (v; p; q) ein Zustand des Verkehrssystems , 
5 • a eine Geschwindigkeitsbegrenzung aus dem Aktionsraum A al- 
ler vom Verkehrsleitsystem 650 anzeigbaren Geschwindig- 



10 




20 




die zur Geschwindigkeitsbegrenzung a gehorigen Gewichte 



keitsbegrenzungen, 
w die zur Geschwi 
des neuronalen Netzes, 

bezeichnet wird/werden. 

Im Rahmen des Q-Lernens wird zur Ermittlung der optimalen Ge 
wichte w den neuronalen Netzes folgender Adaptionsschritt 
15 ausgefiihrt: 

+ l = + Tit • ^''(dt) • VQ(xt; wjt) (36) 

mit der Abkurzung 

dt = r(xt, at, xt + i) + y max Qlxt + i, - ofxt, wj^ 1 (37) 

aeA ^ / \ y 

wobei mit 

25 • xt/ xt+i jeweils ein Zustand des Verkehrssystems gemaft Vor- 
schrift (34) , 

• at eine Aktion, d.h. eine von dem Verkehrsleitsystem 650 
anzeigbare Geschwindigkeitsbegrenzung, 

• y ein vorgebbarer Verringerungsf aktor , 

30 • Wt^ der zur Aktion at gehorige Gewichtsvektor vor dem Ad- 
aptionsschritt, 

a-h 

• w^":j_-|^ der zur Aktion at gehorige Gewichtsvektor nach dem 

Adaptionsschritt, 

• "Ht (t = 1, . . . ) eine vorgebbare Schrittweitenf olge. 
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• K € [-1; 1] ein Risikokontrollparameter, 

• eine Risikokontrollf unktion K'^(^) = (l " Ksign(^))^, 

• Vq(-;-) die Ableitung des neuronalen Netzes nach seinen Ge- 
wichten, 

5 • r(x-t- , a^r xt + i) ein Gewinn beim Zustandsuberqanq von dem Zu- 
stand xt nach dem Folgezustand xt+i, 

bezeichnet wird/werden . 

10 Im Rahmen des Lernens kann aus den moglichen Aktionen at eine 
Aktion at zufallig gewahlt werden. Hierbei ist es nicht er- 
forderlich, die Aktion at/ die zu der grofiten Bewertungsgrofi 
gefuhrt hat, zu wahlen. 

15 Die Adaption der Gewichte hat derart zu erfolgen, daJi nicht 

nur eine im Erwartungswert der Optimierungsf unktion optimier- 
te Regelung des Verkehrs erreicht wird, sondern auch eine Va- 
rianz der Regelungsergebnisse beriicksichtigt wird. 

20 Dies ist insbesondere vorteilhaft, da der Zustandsvektor x(t) 
das tatsachliche System Verkehr in einigen Aspekten nur unzu- 
reichend modelliert und es deshalb zu nicht erwarteten Sto- 
rungen kommen kann. So hangt die Dynamik des Verkehrs und da- 
mit seiner Modellierung von weiteren Faktoren wie beispiels- 

25 weise Wetter, Anteil an Lastkraf twagen auf der Strafie, ein 

Anteil von Wohnmobilen, etc. ab, die nicht immer in den Meli- 
grofien des Zustandsvektors x(t) integriert sind. Zudem ist 
nicht immer sichergestellt , daJi die Verkehrsteilnehmer sofort 
den neuen Geschwindigkeitsangaben gemaJi dem Verkehrsleitsy- 

30 stem Folge lei s ten . 

Eine Regelungsphase an dem realen System gemaft dem Verkehrs- 
leitsystem vollzieht sich gemali folgenden Schritten: 

35 1 . Das Messen des Zustandes xt zum Zeitpunkt t erfolgt an ver- 
schiedenen Stellen des Verkehrssystems Verkehr und ergibt 
einen Zustandsvektor x(t)c = (v(t), p(t), q(t)) . 




GR 98 P 2663 

27 

2. Fur alle moglichen Aktionen at wird ein Wert der Optimie- 
rungsfunktion ermittelt und es wird diejenige Aktion at niit 
der hochsten Bewertung in der Optimierungsf unktion ausge- 
wahlt - 
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Palzentanspruche 

1. Verfahren zur rechnergestiitzten Ermittlung einer Folge von 
Aktionen fur ein System, welches Zustande aufweist, wobei ein 
5 Zustandsiibergang zwischen zwei Zustanden aufgrund einer Akti- 
on ertolgt, 

bei dem die Ermittlung der Folge von Aktionen derart erfolgt, 
dali eine aus der Folge von Aktionen resultierende Folge von 
Zustanden hinsichtlich einer vorgegebenen Optimierungsf unkti- 
10 on optimiert ist, wobei die Optimierungsf unktion einen varia- 
blen Parameter enthalt, mit dem ein Risiko, welches die re- 
Ij^^^^ sultierende Folge von Zustanden hinsichtlich eines vorgegebe- 
^^^B nen Zustandes des Systems aufweist, einstellbar ist. 

15 2. Verfahren nach Anspruch 1, 

bei dem zur Ermittlung ein Verfahren des approximativen Dyna- 
mischen Programmierens eingesetzt wird. 

3. Verfahren nach Anspruch 2, 
20 bei dem das Verfahren des approximativen Dynamischen Program- 
mierens ein auf dem Q-Lernen basierendes Verfahren ist. 




4. Verfahren nach Anspruch 3, 

bei dem die Optimierungsf unktion OFQ im Rahmen des Q-Lernens 
gemali folgender Vorschrift gebildet wird: 



OFQ = q(x; w^) , 



wobei mit 

• x ein Zustand in einem Zustandsraum X, 

• a eine Aktion aus einem Aktionsraum A, 

• w die zur Aktion a gehorigen Gewichte eines Funktions- 
approximators 

bezeichnet wird/werden, und bei dem die Gewichte des Funkti- 
onsapproximators gemali folgender Vorschrift adaptiert werden: 
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mit der Abktirzung 




dt = r(xt, at/ xt + i) + y max Qlxt + i, w^l - ofxt, w^^ J 

a eA ^ 

wobei mit 

10 • xt/ ^t+l jeweils ein Zustand in dem Zustandsraum X, 

• at eine Aktion aus einem Aktionsraum A, 

• Y ein vorgebbarer Verringerungsf aktor , 

• wt^ der 2ur Aktion at gehorige Gewichtsvektor vor dem Ad- 
apt ions schritt, 

15 • 2:ur Aktion at gehorige Gewichtsvektor nach dem 

Adapt ion s schrit t , 

• r|t (t = 1, ...) eine vorgebbare Schrittweitenf olge, 

• K e [-1; 1] ein Risikokontrollparameter, 

• eine Risikokontrollf unktion = (l - Ksign(^))^, 

20 • Vq(-;*) die Ableitung des Funktionsapproximators nach seinen 
Gewichten, 

• i^(xtf atf Xt + i) ein Gewinn beim Zustandsubergang von dem Zu- 
stand Xt nach dem Folgezustand xt+if 




25 bezeichnet wird/werden. 



5. Verfahren nach Anspruch 2, 

bei dem das Verfahren des approximativen Dynamischen Program- 
mierens "ein auf dem TD ( A,) -Lernen basierendes Verfahren ist- 

6. Verfahren nach Anspruch 5, 

bei dem die Optimierungsf unktion OFTD im Rahmen des TD(X)- 
Lernens gemaft folgender Vorschrift gebildet wird: 
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OFTD = j(x; w) 



wobei mit 



5 • X ein Zustand in einem Zustandsraum X, 



• a eine Aktion aus einem Aktionsraum A, 

• w die Gewichte eines Funktionsapproximators 

bezeichnet wird/werden, und bei dem die Gewichte des Funkti- 
10 onsapproximators gemafi folgender Vorschrift adaptiert werden: 




15 



^t + l = wt + rit • «^(dt) 



mit den Abkurzungen 
dt = r(wt, at, xt + i) + Yj(xt + i; wt) - j(xt; wt), 

zt = • y • 2t-i + Vj(xt; Wt), 
20 z_i = 0, 
wobei mit 




30 



35 



^t' xt+i jeweils ein Zustand in dem Zustandsraum X, 

at eine Aktion aus einem Aktionsraum A, 

y ein vorgebbarer Verringerungsf aktor , 

wt der Gewichtsvektor vor dem Adaptionsschritt , 

^t+l der Gewichtsvektor nach dem Adaptionsschritt , 

r|t (t = 1, ...) eine vorgebbare Schrittweitenf olge, 

K € ["1; 1] ein Risikokontrollparameter ^ 

eine Risikokontrollf unktion = (l - Ksign(^))^, 

Vj(-;-) die Ableitung des Funktionsapproximators nach seinen 
Gewichten, 

r(xt, at/ xt -hi) ein Gewinn beim Zustandsubergang von dem Zu- 
stand xt nach dem Folgezustand xt+i. 
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bezeichnet wird/werden , 

7. Verfahren nach einem der Anspruche 1 bis 6, 

bei dem das System ein technisches System ist, von dem vor 
5 der Ermittlung Mefigrolien gemessen werden, die bei der Ermitt- 
lung der Folge von Aktionen verwendet werden. 

8. Verfahren nach Anspruch 1, 

bei dem gemali der Folge von Aktionen das technische System 
10 gesteuert wird. 

9. Verfahren nach Anspruch 7, 

bei dem gemafi der Folge von Aktionen das technische System 
geregelt wird. 

15 

10. Verfahren nach einem der Anspruche 1 bis 9, 
bei dem das System als ein Markov-Entscheidungsproblem model- 
liert wird. 

20 11. Verfahren nach einem der Anspruche 1 bis 10, 
eingesetzt in einem Verkehrsleitsystem. 

12. Verfahren nach einem der Anspruche 1 bis 10, 
eingesetzt in einem Kommunikationssystem. 

25 

13. Verfahren nach einem der Anspruche 1 bis 10, 
eingesetzt zur Durchfuhrung einer Zugangskontrolle in einem 
Kommunikationsnet z . 

30 14. Verfahren nach einem der Anspruche 1 bis 10, 

eingesetzt zur Durchfuhrung eines Routings in einem Kommuni- 
kationsiietz . 

15. Anordnung zur Ermittlung einer Folge von Aktionen fur ein 
35 System, welches Zustande aufweist, wobei ein Zustandsiibergang 
zwischen zwei Zustanden aufgrund einer Aktion erfolgt, 
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mit einem Prozessor, der derart eingerichtet ist, daB die Er- 
mittlung der Folge von Aktionen derart erfolgen kann, dali ei- 
ne aus der Folge von Aktionen resultierende Folge von Zustan- 
den hinsichtlich einer vorgegebenen Optimierungsf unktion op- 
5 timiert ist, wobei die Optimierungsf unktion einen variablen 
Parameter enthalt, mit dem ein Risiko, welches die resultie- 
rende Folge von Zustanden hinsichtlich eines vorgegebenen Zu- 
standes des Systems aufweist, einstellbar ist. 

16. Anordnung nach Anspruch 15, 

eingesetzt zur Steuerung eines technischen Systems, 

17. Anordnung nach Anspruch 15, 

eingesetzt zur Regelung eines technischen Systems. 

18. Anordnung nach Anspruch 15, 
eingesetzt in einem Verkehrsleitsystem. 




19. Anordnung nach Anspruch 15, 
20 eingesetzt in einem Kommunikationssystem. 



20. Anordnung nach Anspruch 15, 

eingesetzt zur Durchfuhrung einer Zugangskontrolle in einem 
Kommunikationsnetz . 

^^^F 21. Anordnung nach Anspruch 15, 

eingesetzt zur Durchfuhrung eines Routings in einem Kommuni- 
kationsnetz . 
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34 

Zusaxnmenfassung 

Verfahren und Anordziung zur Ermittlung einer Folge von Aktio- 
nen fiir eln System, welches Zust:ande aufweis'b, wobel exn Zu- 
5 si:andsubergang zwxschen zwei Zustanden aufgrund exner Aktlon 
erfolg'b 

Die Ermittlung der Folge von Aktionen erfolgt derart, dali ei- 
ne aus der Folge von Aktionen resultierende Folge von Zustan- 
10 den hinsichtlich einer vorgegebenen Optimierungsf unktion op- 
timiert ist. Die Optimierungsf unktion enthalt einen variablen 
Parameter, mit dem ein Risiko einstellbar ist, welches Risikq 
die resultierende Folge von Zustanden hinsichtlich eines vor 
gegebenen Zustandes des Systems aufweist. 




9t 
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Current state x 



Current event co^^^ /sj^ 
= arrival of class m for node pair i j 



m 



Specify all feasible routes R(i ) 



Compute r*=argmax'j(x'^j coj jXG) 




yes 



-* reject the call 



;ios' 



I route the call via path r'M l^ j^q^ 
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I 



[ Number of users of service type 1 oiTroute ij - ^ 

fNumbcr ot users ot' serviceliaje 2 oii route 1 j -41 | 

- I*"" 1 

I Numb er of users of service type M on route r1 —f 



.?(..e) 



|M„^h.>rof ujieis of service type I oDlmlTl^ 



r-^r- iNumberof users of scfvice type 2 on y | 

i>-/fv^— ~ sn^-^ I 



^urobcr of users of service type M on Upkjj j^jLf. 



) Number of users of seryiCT •yyr ' '"^^4 

Eimbe f of users of savice type M on link 
.-^ ' 3, 




J(..e) 
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